其他
怎么做一份好数据
人都知道
好数据
人们都说:无规矩,不成方圆!
对数据来说,也一样!
什么是好数据呢?
我觉得:数据本身无所谓好坏,好坏要看有没有相应的评判标准。能达到标准的数据,那就是好数据,达不到的,就不是好数据。数据在生产、处理的时候是不是达到了当时提出的标准,就是好数据,达到标准了,还能能完美支撑应用场景的就是极好的数据。数据生产完了,标准却变动了,旧数据也许就没办法达到新标准的要求。这种情况是存在的!我觉得:不能拿新的标准去套按旧标准做的数据,那不配套。当时达标了,就是好数据!新标准来了,就按新标准对数据进行整合、治理就行了,这是后话。
所以数据是不是好的,得对着标准看!并且标准这个东西还有时效性!如果连个评判的标准都没有,那也就无所谓好坏!!!
总结一下:有标准,才有好坏!
怎么做呢?
知道了什么是好数据之后,才能做出好的数据来!想做出一份好数据,要仔细的研究数据标准。同时也要分析现有的数据资源距离要求的标准有多大差距。我一般采取的方式是:先研究标准,再制定相应的技术路线。在技术路线基本确定下来之后,再找点小数据人工的快速走一遍流程,看沿着技术路线做出的数据是否能够做出达标。如果做出来的数据不达标,就去修改技术路线;如果出来的数据达标,就去优化技术路线!能工具化的步骤,尽量的去工具化,提升整个流程的运转效率。这个时候需要什么人呢?需要技术过硬的工具人。
人工的去验证技术流程,这样的好处就是能够对技术路线中不合理的部分进行修正。步骤的工具化则能提升效率,保证数据处理的质量(人工的好处是灵活,缺点是做出来的数据容易五花八门,不信你看这个:【使用线分割面】超级垃圾CAD图处理)。
数据处理的技术路线包含很多的内容:像数据接入、数据清洗、数据治理等等步骤,多且杂。我认为,所有步骤中最重要的就是数据的质检环节。质检一般是作为最后一个环节出现的,过了质检,数据就该交付了。那么质检环节的设置,就关乎最终交付数据的质量。质检环节设置的松松的,数据做起来很简单,最终交付的数据就是水水的;质检环节设置的严严的,数据做起来比较难,最终交付的数据质量就会高高的。但数据的事情,有时候却不是做数据的人能说了算的。这让人无奈,人生有很多的无奈!
总结一下:
数据质量,是由质检来控制的!
想要好的数据,就要指定严格的质检环节!
上面讲的,都是有标准的时候应该怎么做,那么万一连个标准都没呢?应该怎么做?
先卖个关子,下一篇再来简单聊聊!
最后的絮絮叨叨
絮絮叨叨讲了这么多,感觉也还没怎么讲明白。
做数据说复杂也复杂,质检设置的严了就复杂些;说简单也简单,质检水水的还不按质检来就简单的要死!
这问题的关键,要看怎么取舍。